Comparison across temperature settings. Normalized MAE allows cross-dataset comparison (0-1 scale).
Comparison between RAG-enhanced strategies and baseline strategies. Normalized MAE shown (0-1 scale).
All strategy+temperature+mode combinations. Click tabs to switch metrics.
Her model-dataset çifti için tüm kombinasyonlar (Strategy × Temperature × Scoring Mode). Satıra tıklayarak detayları görün.
MAE Mean Absolute Error (Ortalama Mutlak Hata)
LLM'in verdiği puanların gerçek puanlardan ne kadar saptığını ölçer. Her bir tahmin için hatanın mutlak değeri alınır ve ortalaması hesaplanır.
Neden önemli: En sezgisel hata metriğidir. MAE = 0.5 demek, model ortalamada yarım puan hata yapıyor demektir. Ölçek bağımlıdır - 1-5 ölçeğinde 0.5 iyidir, 1-100 ölçeğinde çok iyidir.
📏 Aralık: 0 → ∞
↓ Düşük = İyi
✓ 1-5 ölçeğinde: MAE < 0.5 mükemmel, 0.5-1.0 iyi, > 1.0 geliştirilebilir
NMAE Normalized MAE (Normalize Edilmiş MAE)
MAE'yi puan aralığına bölerek 0-1 arasına normalize eder. Farklı ölçeklerdeki datasetleri karşılaştırmak için kullanılır.
Neden önemli: 1-10 ölçeğinde MAE=0.9 ile 1-5 ölçeğinde MAE=0.36 aynı NMAE'ye sahiptir (0.1). Bu sayede farklı datasetler arasında adil karşılaştırma yapılabilir.
📏 Aralık: 0 → 1
↓ Düşük = İyi
✓ NMAE < 0.1 mükemmel, 0.1-0.2 iyi, > 0.2 geliştirilebilir
QWK Quadratic Weighted Kappa (Kuadratik Ağırlıklı Kappa)
İki değerlendirici arasındaki uyumu ölçer. Tesadüfi uyumu hesaba katar ve büyük farklara daha yüksek ceza verir.
Neden önemli: Essay puanlama yarışmalarının (Kaggle ASAP) standart metriğidir. 1 puan hata ile 3 puan hatayı farklı ağırlıklandırır - büyük hatalar kuadratik olarak cezalandırılır.
📏 Aralık: −1 → +1
↑ Yüksek = İyi
<0.20 Zayıf
0.20-0.40 Orta
0.60-0.80 Çok İyi
>0.80 Mükemmel
r Pearson Korelasyonu
Tahmin ve gerçek değerler arasındaki doğrusal ilişkinin gücünü ve yönünü ölçer. Birlikte artıp azalıyorlar mı?
Dikkat: Yüksek korelasyon tek başına yeterli değil! Model tutarlı şekilde +2 yüksek puanlasa bile r yüksek olabilir. Bu yüzden Bias metriği de kontrol edilmeli.
📏 Aralık: −1 → +1
↑ +1'e yakın = İyi
r ≈ 1: Güçlü pozitif | r ≈ 0: İlişki yok | r ≈ −1: Ters ilişki
ρ Spearman Korelasyonu (Rank Korelasyonu)
Sıralama bazlı korelasyon. Değerlerin kendisi değil, sıralamasının tutarlılığını ölçer.
Pearson'dan farkı: Model 1-2-3-4 yerine 2-4-6-8 verse bile Spearman = 1 olur (sıralama aynı). Pearson ise düşük çıkar. Monoton ilişkileri yakalamada daha iyidir.
📏 Aralık: −1 → +1
↑ +1'e yakın = İyi
Sıralama tutarlılığını ölçer - hangisi daha iyi/kötü sorusuna cevap verir
Bias Yanlılık (Sistematik Hata)
Modelin ortalamada gerçekten yüksek mi yoksa düşük mü puan verdiğini gösterir.
Yorumlama: Bias = +0.8 ise model ortalama 0.8 puan fazla veriyor (cömert/lenient). Bias = −0.5 ise 0.5 puan eksik veriyor (sert/strict). İdeal değer 0'dır.
📏 Aralık: −∞ → +∞
≈ 0 = İyi
>0 Cömert (Lenient)
≈0 Dengeli
<0 Sert (Strict)
ECE Expected Calibration Error (Kalibrasyon Hatası)
Modelin "eminlik" seviyesi ile gerçek doğruluk oranı arasındaki farkı ölçer. İyi kalibre edilmiş model, emin olduğunda doğru olmalı.
Neden önemli: Model "%90 eminim" dediğinde gerçekten %90 doğru mu? Overconfident modeller yüksek güven verip hata yapar. Bu metrik bunu ölçer.
📏 Aralık: 0 → 1
↓ Düşük = İyi
<0.10 İyi ✓
0.10-0.20 Orta
>0.20 Kötü
📚 Guo et al. (2017) "On Calibration of Modern Neural Networks" - NeurIPS
Brier Brier Score (Olasılıksal Doğruluk)
Normalize edilmiş tahmin hatalarının karelerinin ortalaması. Hem doğruluğu hem de güveni tek metrikte birleştirir.
Avantajı: MAE'den farklı olarak büyük hatalara daha fazla ceza verir (karesel). NMAE ile birlikte yorumlanmalıdır.
📏 Aralık: 0 → 1
↓ Düşük = İyi
<0.05 Mükemmel ✓
0.05-0.10 İyi
>0.10 Orta
📚 Brier (1950) "Verification of forecasts expressed in terms of probability"